arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PAR__

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PAR

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PAR

¥ 1.0

热度

当转换和奖励函数未知时，马尔可夫决策过程是现代强化学习领域的基础数学形式化。我们推导出一个伪布尔成本函数，它相当于离散、有限、折现马尔可夫决策过程的 K 自旋汉密尔顿表示，具有无限的视界。这个 K 自旋汉密尔顿提供了一个起点，可以使用启发式量子算法（例如绝热量子退火和近期量子硬件上的量子近似优化算法）来求解最优策略。在证明我们的汉密尔顿的变分最小化等同于贝尔曼最优条件时，我们建立了与经典场论的有趣类比。除了通过模拟和量子退火与经典 Q 学习进行概念验证计算以证实我们的公式外，我们还分析了在量子硬件上解决汉密尔顿所需的物理资源的扩展。

添加pdf代下载 VIP点击下载文件